افزایش کارائی دسته بندی متون بر اساس بهبود روش انتخاب خصیصه
نویسندگان
چکیده
در دسته بندی متون معمولا از کلمات به عنوان خصیصه استفاده می شود. از آنجا که در هر مجموعه متون، تعداد بسیار زیادی خصیصه وجود دارد، در این مقاله روش هائی به منظور کاهش تعداد خصیصه ها و انتخاب خصیصه های مرتبط، پیشنهاد شده است. به طور کلی روش های فیلتری انتخاب خصیصه از چهار همبستگی مثبت و منفی بین خصیصه های سندها و دسته ها در ضابطه انتخاب خصیصه استفاده می کنند. در روش های پیشنهادی این مقاله ابتدا کلیه همبستگی های مثبت و منفی را با اثر مثبت و سپس همبستگی های مثبت را با اثر مثبت و همبستگی های منفی را با اثر منفی در ضابطه انتخاب خصیصه ها در نظر گرفته ایم. نتایج آزمایشات نشان دهنده تاثیر بیشتر همبستگی های مثبت، نسبت به همبستگی های منفی می باشد. دیگر روش پیشنهادی، ترکیبی از یک روش فیلتری و یک روش روکشی است که ابتدا با استفاده از روش فیلتری relief-f تعدادی از خصیصه ها با هزینه محاسباتی کمی انتخاب می شوند و سپس از خصیصه های انتخاب شده با استفاده از روش روکشی sfs یا sbs به صورت دقیقتری با کمک دسته بند متون، خصیصه های نامرتبط حذف می شوند. ارزیابی های انجام گرفته نشان دهنده کارائی بهتر روش ترکیبی نسبت به روش های فیلتری است.
منابع مشابه
افزایش کارائی دستهبندی متون بر اساس بهبود روش انتخاب خصیصه
در دسته بندی متون معمولا از کلمات به عنوان خصیصه استفاده می شود. از آنجا که در هر مجموعه متون، تعداد بسیار زیادی خصیصه وجود دارد، در این مقاله روشهائی به منظور کاهش تعداد خصیصهها و انتخاب خصیصههای مرتبط، پیشنهاد شدهاست. به طور کلی روشهای فیلتری انتخاب خصیصه از چهار همبستگی مثبت و منفی بین خصیصههای سندها و دستهها در ضابطه انتخاب خصیصه استفاده میکنند. در روشهای پیشنهادی این مقاله ابتدا ک...
متن کاملدسته بندی موضوعی متون فارسی بر اساس روش قواعد انجمنی
برای دسته بندی متن از تکنیک های استخراج اطلاعات، پردازش زبان طبیعی و یادگیری ماشین به طور وسیع استفاده می شود. به طور کلی هدف یک دسته بند متون، دسته بندی اسناد در قالب تعداد معینی از دسته های از پیش تعیین شده می باشد. هر سند می تواند در یک، چند و یا هیچ دسته ای قرار بگیرد. در مورد هر سند به این سوال پاسخ داده خواهد شد که این سند در کدام یک از دسته ها قرار می گیرد. این موضوع می تواند در قالب یک ...
15 صفحه اولارائه ی یک مدل جهت دستهبندی متون فارسی با استفاده از ترکیب روش های دسته بندی
برای دستهبندی متن از تکنیکهای استخراج اطلاعات، پردازش زبان طبیعی و یادگیری ماشین به طور وسیع استفاده میشود به طور کلی هدف یک دسته بند متون، دستهبندی اسناد در قالب تعداد معینی از دستههای از پیش تعیین شده میباشد. هر سند میتواند در یک، چند و یا هیچ دستهای قرار بگیرد. در مورد هر سند به این سؤال پاسخ داده خواهد شد که این سند در کدام یک از دستهها قرار میگیرد. این موضوع میتواند در قالب یک ی...
متن کاملارائه ی یک مدل جهت دستهبندی متون فارسی با استفاده از ترکیب روش های دسته بندی
برای دستهبندی متن از تکنیکهای استخراج اطلاعات، پردازش زبان طبیعی و یادگیری ماشین به طور وسیع استفاده می شود به طور کلی هدف یک دسته بند متون، دستهبندی اسناد در قالب تعداد معینی از دستههای از پیش تعیین شده میباشد. هر سند می تواند در یک، چند و یا هیچ دسته ای قرار بگیرد. در مورد هر سند به این سؤال پاسخ داده خواهد شد که این سند در کدام یک از دستهها قرار می گیرد. این موضوع می تواند در قالب یک ی...
متن کاملدسته بندی و شناسائی اهداف زیرآبی بر اساس اصوات منتشره
This paper investigates an underwater noise target classification algorithm in order to identify vessels in shallow water. To this aim the Hilbert Huang transform has been used to extract features in order to be used in a classifier. The Support Vector Machine has been considered to identify targets. The proposed method based on Hilbert Huang Transform shows considerable gain against similar ap...
متن کاملبهبود کارایی دسته بندی متن بر مبنای ویژگیها و متون دسته بندی شده مشابه
در یادگیری ماشین، داده های آموزشی نقش مهمی را در تعیین کارایی الگوریتم یادگیری ایفا می کنند. تعداد این داده های آموزشی در طول زمان افزایش می یابد وداده های جدیدی از راه می رسد. این داده های جدید، ممکن است دید جدیدی از داده های قبلی را ارائه دهند یا توزیع آماری داده ها را تغییر دهند. از این رو، فهمیدن اهمیت داده های جدید و اجازه به این داده ها، برای نقش داشتن در آموزش، به منظور افزایش کارایی سیس...
15 صفحه اولمنابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
عنوان ژورنال:
نشریه دانشکده فنیناشر: دانشکده فنی
ISSN 0803-1026
دوره 40
شماره 2 2006
میزبانی شده توسط پلتفرم ابری doprax.com
copyright © 2015-2023